Yiksan0315's Blog

Weight Decay

# Tag:

  • Source/KU_ML2

Weight Decay

weights를 학습 과정 중에 점진적으로 감소시키는 방법.

Regularization를 위해 사용되며, 데이터의 feature에 민감하게 반응해 Overfitting이 발생하는 것을 방지하기 위함이다.

Sigmoid가 그 예가 될 수 있는데, Sigmoid의 개형은 input이 0에 가까울수록 Linear함을 보이므로, weight가 작을 수록 input이 0에 가까워져 더욱 더 간단한 model을 만들 수 있음을 의미한다.

Dropout에 비해 단순히 값을 감소시키는 것으로 구현되므로, compuation cost가 적다.

with L2 Regularization

  • : weight decay

with L1 Regularization

  • : weight decay.
    • : 가 양수면 1, 음수면 -1을 반환한다.

Bayesian interpretation

bayesian 관점에서도 해석해볼 수 있는데, 이는 곧 Regularization의 penalty를 포함하였을 때의 Error를 작게 만드는 가중치를 찾는 것으로 볼 수 있다.
\arg\max_\vec{w}P(\vec{w}|D)=\arg\max_{\vec{w}}\log\frac{P(D|\vec{w})P(\vec{w})}{P(D)}=\arg\max_\vec{w}[\log P(D|\vec{w})+\log P(\vec{w})]

이 때, 와 같은 정규 분포를 따른다고 가정하면,

toc test

이 페이지는 리디주식회사에서 제공한 리디바탕 글꼴이 사용되어 있습니다. 리디바탕의 저작권은 리디주식회사가 소유하고 있습니다.

This Font Software is licensed under the SIL Open Font License, Version 1.1.

Copyright 2025. yiksan0315 All rights reserved.